企業(yè)的成長是一件令人興奮的事情,但它往往會給 IT 專業(yè)人員帶來獨特的挑戰(zhàn)。在嘗試升級 IT 管理環(huán)境時會遇到一些常見的障礙。在我們大規(guī)模管理 IT 基礎(chǔ)架構(gòu)系列的第二篇博客中,我們討論了如何在監(jiān)控軟件可擴展性和易用性之間找到合適的平衡點。
兩種類型的基礎(chǔ)設(shè)施管理軟件
基礎(chǔ)設(shè)施管理軟件傳統(tǒng)上分為兩類之一:易于使用、流暢、快速但可能從未設(shè)計為真正可擴展的軟件,以及昂貴、令人困惑且難以定制的四大遺留系統(tǒng)。
適用于小型環(huán)境的基于 Windows 的系統(tǒng):
第一類通常是為小型環(huán)境設(shè)計的基于 Windows 的系統(tǒng)。這些在中小型企業(yè)和組織中非常常見,隨著它們的發(fā)展和發(fā)展,它們試圖盡可能長時間地保留這些系統(tǒng)。這些解決方案通常使用添加額外服務(wù)器以進行擴展的方法,但通常會遇到性能和管理開銷問題。例如,Windows 修補、許可、防病毒和維護要求都以與我們添加服務(wù)器和性能經(jīng)常受到影響的速度相同的速度擴展,從而限制了我們可以使用這種解決方案真正管理的最大規(guī)模。他們有時也會成為目標受眾的受害者,當我們試圖管理數(shù)千甚至數(shù)萬臺設(shè)備時,用于管理一百臺服務(wù)器或路由器的 UI 突然變得非常痛苦。
許多這些解決方案的吸引力在于“無限”許可證,這似乎很吸引人,因為它應(yīng)該允許您根據(jù)需要添加任意數(shù)量的設(shè)備,但只能添加與一臺服務(wù)器可以處理的設(shè)備一樣多的設(shè)備,并且在很多情況下,這比你想象的要少得多。我們測試的一個軟件解決方案開始在單個服務(wù)器上的 1500 臺設(shè)備上出現(xiàn)嚴重問題,而且沒有添加大量復(fù)雜的服務(wù)或應(yīng)用程序檢查,甚至沒有運行網(wǎng)絡(luò)流量。一份設(shè)計指南僅推薦每臺服務(wù)器最多 500 臺設(shè)備!
老派“四大”解決方案
第二類管理系統(tǒng),老式的“四大”解決方案旨在處理非常大的環(huán)境,但用戶界面“晦澀難懂”,對這些系統(tǒng)進行小的更改或定制可能會很昂貴,并且需要專業(yè)培訓(xùn)或顧問。重要的是要理解這實際上是設(shè)計使然,因為這些公司中的大多數(shù)從服務(wù)和咨詢業(yè)務(wù)中賺到的錢比從銷售軟件中賺到的錢要多得多。這意味著許多公司最終得到了一個在必須升級之前從未完全實施的平臺。我們的一位客戶花了三年時間和超過 200 萬美元嘗試實施其中一種解決方案,由于年度升級不得不重新開始兩次,最后不得不放棄它并改變方向。
解決這一挑戰(zhàn)的方法是保持管理、報告和配置集中化,以簡化擴展。通過確保這些任務(wù)有一個單一的用戶界面——一個旨在擴展的用戶界面——我們消除了創(chuàng)建自定義網(wǎng)頁、訪問多個 UI 或?qū)W習(xí)腳本語言來管理和維護平臺的要求。只需單擊幾下,您就可以根據(jù)需要部署服務(wù)引擎,從而更快地擴展,而所有內(nèi)容都可以從您習(xí)慣的同一個集中式 Web 界面進行管理和訪問。
基礎(chǔ)架構(gòu)管理軟件更新流程旨在讓您可以完全自動化和安排它,或者只需單擊一下,您就可以在不中斷服務(wù)的情況下下載和安裝最新版本 - 然后這些更新會自動推送到所有不同的服務(wù)和遠程收集引擎,使這個過程完全無痛。
還采用分布式方法來解決這個問題,確保遠程收集器——我們稱之為“服務(wù)引擎”——正在做大量繁重的計算和數(shù)據(jù)庫工作,這樣雖然您仍然可以從單個中央控制臺獲取所有數(shù)據(jù),繁重的工作被分散,再次幫助擴展到世界上最大的網(wǎng)絡(luò)環(huán)境。
基于設(shè)備的方法意味著無需管理或配置外部數(shù)據(jù)庫,也無需滿足操作系統(tǒng)或防病毒要求。內(nèi)置自動化旨在簡化配置,無需人工干預(yù),即使在高度動態(tài)的環(huán)境中也是如此,因此該解決方案可以在幾天而不是幾個月或幾年內(nèi)部署,并且即使在 DevOps 節(jié)奏的環(huán)境中也可以保持同步。
被警報淹沒
警報過載是大多數(shù)管理員曾經(jīng)處理過的事情,但隨著環(huán)境的擴大,它變得更加嚴重。這是最常見的抱怨:收件箱、電話和聊天應(yīng)用程序都在爆炸式通知中,有時一天數(shù)百甚至更多,沒有人能夠跟上它們,更不用說在解決潛在問題上取得進展了。結(jié)果,您的操作員和工程師開始忽略甚至過濾掉這些警報,讓您在生產(chǎn)應(yīng)用程序失敗時等待用戶投訴。
忽略這樣的警報是自找麻煩,因為總有一天,有人不可避免地會忽略錯誤的警報,而您將遇到本可以很容易避免的重大中斷。當用戶因為數(shù)據(jù)庫集群的最后一個成員失敗而呼叫幫助臺時,您已經(jīng)陷入困境。這甚至可能比沒有監(jiān)控更糟糕,因為當現(xiàn)實與盲目一樣好時,管理層可能會感到安全,因為事情正在受到密切關(guān)注。這意味著即使是擁有多個高級監(jiān)控系統(tǒng)的組織也經(jīng)常陷入消防模式,在警報發(fā)生時做出反應(yīng),而沒有真正提前并在影響用戶之前防止中斷。
那么,如何在不讓指揮中心充斥警報的情況下,確保一切都得到良好監(jiān)控?作為一般規(guī)則,您應(yīng)該只為可操作的項目保留活動警報。如果您不打算在收到通知后立即對其做出反應(yīng),則不應(yīng)對其發(fā)出警報。例如,如果您在硬盤驅(qū)動器達到 90% 的利用率時收到警報,然后因為不緊急而忽略它們,則會發(fā)生兩件事:首先,您遲早會因為忘記在驅(qū)動器填滿之前返回該警報,其次,您正在調(diào)整自己和您的團隊以忽略可能代價高昂的警報。相反,您應(yīng)該使用詳細的報告來告訴您有關(guān)每臺服務(wù)器的關(guān)鍵指標。
但是,使這種方法發(fā)揮作用的一個關(guān)鍵點是安排和自動化這些報告,這樣就不會遺漏任何東西。平臺使您可以在 Web 界面中查看任何內(nèi)容,只需單擊幾下即可轉(zhuǎn)換為自動報告,無需任何特殊培訓(xùn)或 SQL 知識,也無需使用可能令人討厭的外部報告工具。
結(jié)論
您可以觀察到一些解決方案是可以在您為 IT 基礎(chǔ)架構(gòu)奠定基礎(chǔ)之前實施的。在創(chuàng)建新企業(yè)時,您通常會制定允許無縫增長以實現(xiàn)組織目標的程序,同樣重要的是,您的 IT 團隊必須為自己設(shè)想增長。